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摘 要 : 由 于 目前 哈萨克 语句 法 分 析 准 确 率 较 低 并 缺乏 基于 神经 网 络 的 哈萨克 语句 法 分 析 的 相关 研究 ， 针 对 哈萨克 
语 短语 结构 的 句法 分 析 , 使 用 基于 移 进 - 归 约 的 方法 , 但 采用 在 栈 中 存储 句子 跨度 而 不 是 部 分 树 结构 ， 从 而 在 进行 句 
法 树 解 析 时 不 需要 对 句法 树 进行 二 又 化 。 该 研究 在 句子 特征 提取 时 使 用 双向 LSTM 对 句子 跨度 特征 进行 提取 ， 得 到 
句子 跨度 在 整个 句子 上 下 文中 信息 ， 再 使 用 多 层 感 知 机 对 句法 分 析 模 型 进行 训练 ， 最 后 在 解码 时 使 用 动态 规划 选取 
最 优 句 法 分 析 结 果 ; 最 终 使 得 哈萨克 语 短语 句法 分 析 准 确 率 达 到 了 76.92%。 研究 成 果 对 哈萨克 语句 法 分 析 准 确 率 有 
了 进一步 的 提高 并 为 后 续 的 哈萨克 语 机 器 翻译 及 语义 分 析 黄 定 良好 的 基础 。 
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Abstract: Due to the low accuracy of Kazakh parsing and the lack of correlation research based on neural network Kazakh 
parsing. This paper focused on the parsing of Kazakh phrase structure, based on the shift-reduce method, but by the stack 
elements were sentence spans rather than partial tree, then it didn't need to carry out the binary tree in parsing. It also used 
the bi-directional LSTM to extract the features of sentence span, and obtained the sentence span in the whole sentence 
context, using the multilayer perceptron to train the parsing model. In the end, the Kazakh parsing accuracy has been 
achieved 76.9296. The research results have improved the accuracy of Kazakh parsing and build a good foundation for 
Kazakh machine translation and semantic analysis. 
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0 引言 器 。 文 献 [8] 将 概率 上 下 文 无 关 文 法 模型 和 Chart 算法 结合 ， 
ES 实现 了 基于 PChart 算法 的 哈萨克 语 短语 句法 分 析 器 ; 文献 [9] 

句法 分 析 是 根据 给 定 的 语法 体系 ， 自 动 推导 出 句子 的 语 。” 中 使 用 PCFG 与 感知 机 结合 进行 重 排序 ， 实 现 了 由 粗 到 精 的 

法 结构 ， 分 析 句 子 所 包含 的 语法 单元 和 这 些 语法 单元 之 间 的 ” ”哈萨克 语 短语 句法 分 析 等 。 
关系 ， 将 句子 转换 为 一 棵 结构 化 的 语法 树 帆 。 句 法 分 书 虽然 哈萨克 语句 法 分 析 已 在 基于 规则 和 统计 的 方法 上 进 
更 深层 次 的 机 器 翻译 、 语 义 角 色 标 注 等 提供 良好 的 基础 ， 是 。 行 了 一 定 的 研究 ， 但 随 着 神经 网 络 技术 的 发 展 ， 对 于 句子 序 
自然 语言 处 理 中 起 承上启下 的 重要 作用 的 一 个 研究 环节 。 列 预测 的 模型 越 来 越 多 ， 准 确 率 也 越 来 越 高 ， 面 临 此 类 技术 
在 句法 分 析 研 究 中 ， 基 于 规则 的 方法 进行 句法 分 析 研 究 应 用 到 哈萨克 语句 法 分 析 中 问题 。 本 文 在 基于 移 进 一 归 约 系 
时 ， 规 则 由 语言 学 家 进行 提炼 ， 例 如 Collins, Hallet 4$ AP?! 统 基础 上 ， 将 栈 中 存储 的 部 分 树 结 构 改 为 存储 句子 跨度 ， 使 
更 用 上 下 文 无 关 文法 产生 的 规则 或 根据 产生 的 规则 对 句子 进 用 双向 LSTM 获取 句子 跨度 的 上 下 文 特 征 。 双 向 LSTM 3X 
行 打分 ， 生 成 短语 句法 树 。 在 基于 统计 的 句法 分 析 研 究 中 ， 的 是 句子 级 别 的 信息 ， 得 到 句子 跨度 在 整个 句子 上 下 文中 信 
例如 : Charniak 岂 提出 了 单纯 的 PCFG 的 句法 分 析 方 法 , 并 在 。 ” 息 。 同 时 也 将 动态 规划 方法 应 用 在 哈萨克 语句 法 分 析 中 ， 使 
比 基 础 上 又 提出 了 基于 词汇 化 的 PCFG 句法 分 析 方 法 。 目 前 ， 得 在 句法 分 析 解 码 时 不 需要 重 排序 就 可 取得 句法 分 析 的 最 好 
使 用 神经 网 络 的 方法 对 句法 分 析 准 确 率 有 较 大 提高 ， 语 法 规 ”的 结果 。 句 子 跨度 相 较 于 部 分 树 结构 的 优势 主要 是 ; 句子 跨 
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则 在 句法 分 析 中 的 重要 性 降低 。 例 如 Dyer. Sten ORAE 。 度 表 示人 句子 的 一 个 片段 对 应 的 子 树 ， 核 心 词 必须 位 于 段 首 或 
用 编码 一 解码 模型 ， 编 码 主要 是 将 句子 读 入 并 表示 为 向 量 ， 段 尾 ， 因 此 减少 了 解码 时 的 搜索 空间 ， 使 搜索 空间 复杂 度 降 
解码 是 使 用 这 些 向 量 生成 标记 好 的 句法 树 。 氏 。 

哈萨克 语 的 自然 语言 处 理 目前 已 经 进行 了 短语 结构 的 名 本 文 的 主要 贡献 有 : a) 将 神经 网 络 应 用 在 哈萨克 语句 法 
法 分 析 研究 ， 文 献 [7] 利 用 PCFG 方法 ， 并 将 Viterbi 算法 加 DAP, 并 取得 了 良好 的 效果 ; b) 进行 哈萨克 语 短语 句法 分 


入 解码 模块 ， 实 现 了 有 自学 习 能 力 的 哈萨克 语 短 语句 法 分 析  ” 析 时 将 句子 跨度 作为 移 进 一 归 约 方 法 中 栈 中 存储 的 基本 单 
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在 整个 句法 分 析 的 过 程 中 
BUM, 主要 涉及 到 两 种 数据 结构 : 输入 队列 和 分 析 栈 。 
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前 者 用 
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i，j 为 栈 中 待 分 析 元 素 ; X 
次 标记 动作 的 选择 ， 所 以 
需要 (4n-2) 个 步骤 就 可 以 完成 
t 表示 句子 跨度 的 集合 ， 在 句法 树 解 析 完 成 时 ， 

解析 过 程 
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] ”状态 ， 横 线 下 方 表示 执行 相应 分 析 动 作 之 后 的 结果 。 
种 称 为 结构 动作 ， 后 两 种 称 为 短 
动作 主要 是 将 栈 中 一 个 或 更 多 的 
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图 1 哈萨克 语 标准 句法 树 
Fig. 1 Kazakh gold parse tree 


表 1 静态 解码 动作 


Table 1 Static decode actions 
步 数 结构 动作 标记 动作 栈 括号 
1-2 shift(2**/pron) nolabel oi 
3-4 shift( 53/adv) nolabel oio 
5-6 comb label-VP m» o VP» 
7-8 shift(o43.53 /n) nolabel oos 
9-10 shift(«—3/v) nolabel oos, 
11-12 shift(e.J«5 /v) nolabel ooM AS 
13-14 comb label-VP olo N.N. 3VPs 
15-16 comb label-NP oos 2NPs5 
17-18 comb label-S ols 095 
句法 分 析 的 输入 是 词 和 词性 的 向 量 ， 词 性 是 事先 标注 好 
的 作为 句法 分 析 的 输入 。 词 向 量 的 初始 化 可 以 是 随机 初始 化 
或 是 使 用 大 规模 语料库 事先 训练 好 。 在 本 文中 使 用 随机 初始 
化 词 向 量 。 采 用 的 神经 网 络 结构 如 图 2 所 示 : 在 使 用 2 层 的 
双向 LSTM 获得 句子 跨度 特征 后 , 使 用 多 层 感 知 机 进行 训练 ， 


将 每 个 单词 通过 d EER eer ; 同样， 将 词性 也 用 d 
维 向 量 EE 表示 el ej eR, 将 x” -len EE E et， ] 以 及 x slee - i n, 作 
为 输入 ， 通 过 ReLU 线性 激活 函数 将 输入 单词 和 词性 数据 分 
别 上 映射 到 隐藏 层 , Heb wy etiem, etie" Lar, eth 
是 偏 置 项 。 
h, = max(0, WS x" bi ) (1) 
hj = max{0, Wl! bl] (2) 
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p, = softmax w hs) 


p, —si 


句子 跨度 特征 提取 


在 文献 [13] 中 提出 了 使 用 一 


l 
oftmax (W3 hi ) 


在 句子 在 中 上 下 文中 
进一步 提高 句法 分 析 性 能 ， 
i 入 。 本 文 使 


为 全 连接 层 的 输 


入 i 在 前 向 和 


后 向 


的 位 


信息 


l; 2 层 的 双 


向 LSTM 可 


L| 
" wl e gl 


层 计算 多 类 概率 ， 得 


xdh 
, 


3) 


(4) 


层 的 双向 LSTM 可 以 表示 词 


编码 


将 两 层 位 置 特征 表示 


后 的 上 下 文 信息 ， 句 


以 更 


HER 


12 层 双 向 LSTM 来 获得 一 个 输 


H, aX 


子 跨度 (i, j) 


201901.00044v1 


chinaXiv 


录用 定稿 K dh, Fi 基于 句子 跨度 的 哈萨克 语句 法 分 析 研究 


的 表示 是 通过 计算 向 量 坟 -% 和 向 量 %-?， 的 不 同 , 并 与 移 进 
日 约 系统 结合 进行 句法 分 析 。 如 图 3 Hrs. 句子 跨度 
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(3,5)(5,8)， 那 就 有 两 个 内 部 边界 点 b(1,8)={3,5}， 那么 动态 规 
划 的 作用 就 是 将 句子 跨度 与 标准 句法 树 一 致 的 进行 精确 输 
出 。 如 果 句 子 跨度 (i, )) 与 标准 句法 树 不 对 应 ， 就 要 识别 与 标 
准 句法 树 相 似 的 最 小 的 句子 跨度 。 


(7)=min{(i,j) eT:i «ic jj] (5) 


在 这 个 模型 中 ， 句 子 输入 一 次 ， 就 可 以 将 相同 的 循环 输出 用 
来 计算 句子 跨度 特征 贯穿 于 整个 句法 分 析 的 过 程 。 
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图 2 ”哈萨克 语句 法 分 析 神 经 网 络 结构 图 


Fig.2 Neural network architecture of Kazakh parsing system 
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图 3 LSTM 获取 句子 跨度 特征 
Fig.3 Word spans are model by differences in LSTM 
当 进行 句法 分 析 考 虑 到 结构 动作 时 ， 需 要 考虑 是 否 将 栈 
顶 的 两 个 句子 跨度 进行 合并 ; 在 考虑 标记 动作 时 栈 顶 的 句子 
跨度 是 动作 标记 的 一 个 重要 的 候选 。 因 此 ， 使 用 4 个 句子 跨 
度 特 征 决 定 结构 动作 , 3 个 句子 跨度 特征 决定 短语 标记 动作 ， 
这 样 就 可 以 精确 划分 句子 ， 在 这 两 种 情况 下 同时 也 要 考虑 剩 
余 自 己 的 前 级 和 后 级 。 特 征 模板 如 表 2 所 示 。 
表 2 句子 跨度 特征 模板 
Table 2 Span feature templete 


动作 栈 句子 跨度 特征 
结构 动作 c |ilklj OaiAkAjan 
标记 动作 olilj OoiAjon 
3 ”动态 规划 
在 文献 [14~16] 中 已 经 使 证 明了 动态 规划 在 标记 跨 


度 上 的 最 优 性 。 动 态 规划 对 于 标记 的 决策 主要 有 两 种 : 
a) 如 果 分 配给 句子 跨度 的 标记 是 标准 句法 树 的 一 部 分 ， 
那么 就 是 正确 的 句子 跨度 的 标记 。 
b) 如 果 是 其 他 情况 那么 标记 就 为 空 。 
动态 规划 在 结构 方面 主要 对 句法 树 的 分 支点 进行 决策 ， 
如 果 句 子 跨度 (i, 旋 在 标准 句法 树 中 出 现 ， 那 么 bG,， 四 表示 当 
前 句子 跨度 的 内 部 边界 点 ， 例 如 句子 跨度 (1,8) 有 子 跨 度 (1,3) 


其 中 最 小 值 取决 于 由 跨度 长 度 引 起 的 偏 序 。 然 后 动态 规划 的 
输出 就 是 这 个 包围 跨度 的 内 部 边界 点 的 集合 ， 它 也 位 于 原始 
的 内 部 边界 点 , Gera" ):i<k<j} o 
4 ”实验 
4.1 实验 数据 及 评价 指标 

本 文 实验 数据 来 自 是 《新 疆 日 报 》( 哈 萨 克 文 版 )， 所 使 
用 的 语 料 都 是 经 过 人 工 标 注 和 校对 , 并 将 所 有 语 料 按照 8: 1: 
1 的 比例 分 配 为 训练 集 、 验 证 集 以 及 测试 全 
实验 原始 数据 格式 为 

EAS uui ABa auj jar 

实验 测试 结果 数据 格式 为 


(TOP (VP (pron jess) (adv sb (NP. (n piii] (VP (v usii) (v dg)) (. .))) 


Yr 
o 


在 本 实验 中 , 按照 PARSEVAL 的 句法 评测 标准 主要 计算 
标记 准确 率 C precision )， 标 记 召 回 率 (recall )， 严 值 
(A measure) 来 衡量 句法 分 析 结 果 的 好 坏 。 评 价 函 数 的 定 


义 如 下 所 示 : 

准确 率 ue sede. vU (6) 
召回 率 00% T) 
F F = Cpr 10056 (8) 


4.2 实验 环境 

本 实验 使 用 python 语言 进行 程序 设计 ， 其 中 ， 使 用 的 
LSTM 神 经 网 络 模型 来 源 于 DyNet 神经 网 络 工具 包 071.DyNet 
是 由 Google 以 及 卡 内 基 梅 隆 等 多 所 大 学 共同 开发 , 是 一 种 为 
自然 语言 处 理 提 供 动 态 神经 网 络 的 工具 包 , 包含 RNN，CNN 
以 及 LSTM 等 常用 神经 网 络 模型 。 

实验 的 硬件 环境 为 32 GB RAM， 使 用 GPU 为 NVIDIA 
GeForce GTX 1080Ti， 操 作 系统 为 64 位 Ubuntu16.04。 
4.3 实验 结果 及 分 析 

本 文 提出 的 哈萨克 语句 法 分 析 模 型 中 ， 对 句法 分 析 效 果 
影响 较 大 的 因素 为 词 向 量 特征 以 及 句子 长 度 。 本 文 将 设计 以 
下 实验 进行 测试 。 
4.3.1 LSTM 提取 特征 对 句法 分 析 准 确 率 影响 
使 用 Bi-LSTM 对 句子 特征 进行 提取 时 , 其 隐 层 节点 数量 
会 影响 到 句子 特征 提取 的 质量 .为 了 考察 Bi-LSTM 隐 层 节点 
数量 对 哈萨克 语句 法 分 析 性 能 影响 , 通过 改变 Bi-LSTM 隐 层 
节点 数量 进行 实验 , 隐 层 数量 设置 为 S0、70、100、120、150、 
200， 得 到 结果 如 图 4 所 示 。 

从 实验 结果 可 以 得 出 以 下 结论 : a) 隐 层 数量 的 大 小 会 影 
响 对 特征 的 提取 ， 进一步 会 影响 句法 分 析 的 效果 ; b) 隐 层 数 
大 小 增加 到 120 后 ， 继 续 增 加 隐 层 数量 对 于 句法 分 析 效 果 
的 提升 并 不 明显 ， 所 以 在 后 续 实 验 中 设置 隐 层 大 小 为 120。 
.3.2 句子 长 度 对 句法 分 析 准 确 率 影 响 

在 句法 分 析 中 句子 长 度 往往 也 会 对 句法 分 析 效 果 产 生 影 
响 ， 将 实验 语 料 中 句子 长 度 按照 词 的 数量 分 为 1-5，6-15，15 
个 词 以 上 进行 实验 ， 实 验 结果 如 表 3 所 示 。 


lim] 


Aon 
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克 语 短语 句法 分 析 与 动态 规划 结合 对 哈萨克 语 短语 句法 分 析 
d 结果 有 了 进一步 提升 ， 相 比 与 PCFG 方法 、PChart、PCFG 
与 感知 机 结合 准确 率 分 别提 高 了 8.56%、6.63%、5.5%。 使 用 
双向 LSTM 对 句子 跨度 特征 的 提取 在 哈萨克 语 短语 句法 分 析 
ma 中 起 到 了 良好 的 效果 。 
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75 本 文 研究 了 基于 句子 跨度 的 哈萨克 语 短语 句法 分 析 ， 相 
比 于 以 往 使 用 固定 的 特征 模板 获取 句子 上 下 文 信息 特征 ， 使 
50 100 150 200 用 了 双向 LSTM 来 获取 句子 跨度 的 上 下 文 信息 特征 ， 在 句法 
分 析 的 准确 率 上 有 了 一 定 的 提高 ， 并 且 将 动态 规划 技术 加 入 
图 4 不 同 隐 层 大 小 句法 分 析 结 了 哈萨克 语 短语 句法 分 析 上 ， 取 得 了 良好 的 效果 。 在 将 来 的 
Fig.4 Parsing results of different hidden layer sizes 哈萨克 语 短语 句法 分 析 上 ， 进 一 步 增加 训练 语 料 的 数量 ， 采 
表 3 不 同 句 子 长 度 句法 分 析 结 果 用 不 同 的 神经 网 络 进行 对 比 研究 ， 进 一 步 提高 哈萨克 语 短语 
Table 3  Parsing results for different sentence lengths 句法 分 析 的 准确 率 。 
句子 长 度 P/% R/96 F/96 " 
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